home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1993 / Internet Info CD-ROM (Walnut Creek) (1993).iso / standards / misc / TEI.basics < prev    next >
Internet Message Format  |  1993-07-15  |  13KB

  1. From caasi@ucselx.sdsu.edu Wed Oct  3 20:12:20 1990
  2. Return-Path: <caasi@ucselx.sdsu.edu>
  3. From: caasi@ucselx.sdsu.edu (richard)
  4. Subject: Basics of the TEI, part 1:  design goals
  5. To: bzs@world.std.com
  6. Date: Fri, 31 Aug 90 8:04:54 PDT
  7. X-Mailer: ELM [version 2.2 PL0]
  8.  
  9. Date:         Fri, 17 Aug 90 10:46:03 CDT
  10. Comments:     "ACH / ACL / ALLC Text Encoding Initiative"
  11. From: Michael Sperberg-McQueen 312 996-2477 -2981 <U35395@UICVM.uic.edu>
  12. Subject:      Basics of the TEI, part 1:  design goals
  13.  
  14.    This list has had a lot of recent subscriptions in response to the
  15. announcement that the TEI Guidelines are now available in draft form;
  16. TEI-L now goes to over 275 addresses.  The 600 pre-printed copies of the
  17. draft, which we originally thought might be a bit too many to get rid of
  18. in the year before version 2 is ready, may at this rate all be spoken
  19. for before the month of August is out.
  20.  
  21.    We're happy about all the interest, because it suggests that many
  22. others agree with the organizers of the TEI that we need methods for
  23. text encoding suitable for multiple uses of the same texts, for exchange
  24. of texts among researchers and others interested, for languages other
  25. than English and scripts other than Latin, and which will work with all
  26. kinds of text, not only the most common.
  27.  
  28.    This list should play a big role in the revision of the Guidelines,
  29. and to help get the relevant discussion started, it might be a good idea
  30. for the editors to discuss from time to time some of the background to
  31. the current draft -- a sort of TEI tutorial over the net.  This will, we
  32. hope, provoke some questions from participants in the list, and will
  33. lead over time to discussions of the many thorny technical and other
  34. issues involved with a project like this.  Much of what we say at the
  35. beginning may seem (or be) basic and uncontroversial, and those who like
  36. fireworks may wish we would jump right to the burning questions and get
  37. some arguments going.  It appears though that some of the noncontrover-
  38. sial basics are essential to even understanding some of the trickier
  39. burning questions, so we are going to go slow at first.  Anyone who
  40. wants to start a second thread on any burning issue of their choice may
  41. do so.
  42.  
  43.    We count on the many participants in this list who are serving on the
  44. TEI working committees to jump in and amplify or supplement our account
  45. wherever you see fit.
  46.  
  47.  
  48.                           WHO IS THE TEI FOR?
  49.  
  50.    Let's start with something fairly simple:  who is the TEI for and
  51. what are the basic goals?
  52.  
  53.    The goals of the TEI are to define a format for encoding texts in a
  54. linear data stream which is suitable for the interchange of textual
  55. material between researchers, and to provide concrete recommendations,
  56. for those who can use them, as to what features of texts should usually
  57. be recorded.  As the letterhead puts it, the TEI is an "Initiative for
  58. Text Encoding Guidelines and a Common Interchange Format for Literary
  59. and Linguistic Data".  Note some non-obvious points:
  60.  
  61. 1.    The TEI came out of the community of those using computers to do
  62.       research on or with texts, and they are our primary constituency.
  63.       That is:  literary scholars, linguists, computational linguists,
  64.       historians, philosophers, theologians, philologists, people work-
  65.       ing on machine translation, ... you name it.  The publishing
  66.       industry, database vendors, software developers, and others with
  67.       commercial interests in electronic text are interested in the TEI,
  68.       and many are sharing their expertise with us, but they are not the
  69.       *primary* constituency.  If research and publishing were to turn
  70.       out to require different things, the TEI would go with the needs
  71.       of researchers.
  72.  
  73.          It's important to note that this is mostly an imaginary issue:
  74.       so far the requirements of all these groups seem astonishingly
  75.       close to identical.  Very concretely:  I have not encountered a
  76.       single problem faced by humanists which does not have an analogue
  77.       in a problem faced by linguists, and one in a problem faced by
  78.       publishers or commercial database vendors.  And vice versa.  Some-
  79.       times the problems look different, but so far most differences
  80.       have proven superficial.  We believe that what will work for
  81.       researchers must work for other applications as well.  So in a
  82.       real sense, though researchers are the primary constituency, the
  83.       real intended constituency is everyone who works with electronic
  84.       text in *any* way, and wants to be able (a) to move the text from
  85.       system to system without information loss, or (b) to use the text
  86.       for more than one thing.
  87.  
  88. 2.    One major intended use for the Guidelines is as a specification
  89.       for an interchange format.  Transfer between researchers,
  90.       machines, programs, networks would use such a format very simply:
  91.       as a description of what my text will look like when it passes
  92.       from my hands to yours, or what I would like yours to look like
  93.       when yours reaches me.  An interchange format does not tell anyone
  94.       what to encode, any more than the ASCII code tells us how to write
  95.       novels or manuals.  What is encoded is the intellectual responsi-
  96.       bility of the researcher; no one can take that responsibility
  97.       away.
  98.  
  99. 3.    The other major intended use is as a guide for those encoding
  100.       texts for general use (and one hopes that that includes most of
  101.       those encoding texts).  The Guidelines should provide a sample set
  102.       of textual features that many people have found useful in textual
  103.       work, together with ways of encoding those features.  No one is
  104.       required to encode all those textual features, but the list should
  105.       (if we do our work right) be taken seriously as a checklist of
  106.       what the community as a whole tends to find useful.
  107.  
  108.    Software developers should also benefit from the guidelines in both
  109. these ways:  as a definition of an export-import format (or as an inter-
  110. nal file format, if you wish!) *and* as a checklist of textual features
  111. commonly thought important.  I suppose many of us have seen software
  112. which suffered from its makers' sometimes unconsciously narrow concep-
  113. tion of the kinds of texts it would be used for -- the Guidelines should
  114. be useful as a sort of brain-storming, concept-broadening tool for
  115. developers.
  116.  
  117.  
  118. 1.1   Basic requirements
  119.  
  120.    The basic requirements for a text encoding scheme have been stated in
  121. the NEH proposals for TEI funding.  (Quick tip of the hat to the NEH,
  122. the EEC, and the Mellon Foundation for their funding.  Without them, it
  123. wouldn't be happening nearly as fast.)
  124.  
  125.    An encoding scheme is any (systematic?) method of representing or
  126. encoding textual data in machine-readable form.  Typically, an encoding
  127. scheme must include:
  128.  
  129. 1.    methods for recording the characters in the text (including dia-
  130.       critics, special symbols, non-Roman alphabets, etc.)
  131. 2.    conventions for rendering a text in a single linear sequence
  132.       (specifying how footnotes, end-notes, critical apparatus, parallel
  133.       texts, and other non-linear complications are handled)
  134. 3.    methods for recording logical divisions of texts (e.g. book, chap-
  135.       ter, paragraph; act, scene, speech, line; ...)
  136. 4.    methods for recording analytic information like literary or lin-
  137.       guistic analysis
  138. 5.    conventions for delimiting in-line comments and other ancillary
  139.       material
  140. 6.    conventions for identifying the text being encoded and those
  141.       responsible for encoding it
  142.  
  143.    To create a single encoding scheme suitable for common use, the TEI
  144. first formulated (in the original planning conference in 1987 and in
  145. working papers since) the following requirements for the scheme to be
  146. developed:
  147.  
  148. 1.    It should specify a common interchange format.
  149. 2.    It should provide a set of recommendations for encoding new textu-
  150.       al materials.
  151. 3.    It should document the existing major schemes and investigate the
  152.       feasibility of developing a metalanguage in which to describe
  153.       them.
  154. 4.    It must be a set of guidelines, not a set of rigid requirements.
  155. 5.    It must be extensible.
  156. 6.    It should be device- and software-independent.
  157. 7.    It should be language-independent.
  158. 8.    It should be application-independent.
  159.  
  160. As design goals, it was specified that the guidelines should:
  161.  
  162. 1.    suffice to represent the textual features needed for research
  163. 2.    be simple, clear, and concrete
  164. 3.    be easy for researchers to use without special-purpose software
  165. 4.    allow the rigorous definition and efficient processing of texts
  166. 5.    provide for user-defined extensions
  167. 6.    conform to existing and emergent standards
  168.  
  169.    We can expatiate on these, if anyone isn't sure what we mean by
  170. them, but I won't here.
  171.  
  172.    The current draft, be it noted, does *not* solve all these problems
  173. or wholly fulfill all of the design goals.  It wasn't expected to --
  174. some of the hard problems were intentionally saved for the second cycle.
  175. Here is my personal checklist of where we stand with respect to the
  176. goals listed above (which as you can tell from the overlaps were taken
  177. >from different documents).
  178.  
  179. *   The current draft (version 1.0) does specify both an interchange
  180.     format and recommendations, though perhaps not as explicitly as one
  181.     might have expected.  It may need to become more explicit in defin-
  182.     ing the interchange format.
  183.  
  184. *   It does not document any existing encoding schemes, though work is
  185.     continuing on that topic.
  186.  
  187. *   The metalanguage and syntax committee did consider the formulation
  188.     of a metalanguage for defining existing schemes, but decided against
  189.     it.  Descriptions will take the form of prose and of algorithms for
  190.     translating from a given scheme into the TEI scheme, using a variety
  191.     of existing software tools (e.g.  sed scripts, Rexx execs, Snobol
  192.     programs, or even yacc and lex code).
  193.  
  194. *   It is certainly a set of guidelines rather than requirements, and
  195.     device- and software-independent.  It is also, however, not fully
  196.     implemented in software -- this has the advantage that the design is
  197.     not unduly biased by implementation issues, but it makes it hard to
  198.     demonstrate or validate the scheme.
  199.  
  200. *   It is extensible, but the mechanisms for specifying extensions need
  201.     work to be usable without heavy-duty knowledge of SGML.
  202.  
  203. *   It has no bias that we have consciously put there in favor of any
  204.     one language, but the TEI has not addressed, let alone solved, the
  205.     problems of languages other than those already most effectively cov-
  206.     ered by international data-processing standards.  The current draft
  207.     is silent on topics where people need the most guidance:  older
  208.     forms of languages not covered by ISO standards, Asian scripts,
  209.     treatment of bidirectional text (e.g.  Hebrew and English), and so
  210.     on.  We expect to work on these in the next two years, but for some
  211.     issues there is little we can do but document and call attention to
  212.     existing methods of handling these problems (e.g.  ISO 10646 or the
  213.     Unicode effort -- two unfortunately incompatible approaches to han-
  214.     dling Chinese and other Asian scripts).
  215.  
  216. *   It does provide what we think is an adequate *basis* for handling
  217.     all the known needs of research; it probably needs extension in many
  218.     areas to provide not just the *basis* for the required solutions,
  219.     but some version of the solutions themselves.
  220.  
  221. *   It's as simple and clear as we could make it, but we expect to hear
  222.     about lots of obscurities in the draft.  (Let's say it again--please
  223.     let us know if there are things that aren't clear!)
  224.  
  225. *   It can be used without special software, at least at the simpler
  226.     levels.  A lot of work is needed, however, before we have something
  227.     we can hand to the average literary scholar who uses Nota Bene or
  228.     Word Perfect or Microsoft Word and wants to create a TEI-conformant
  229.     file.  (Volunteer macro-writers sought!)
  230.  
  231. *   So far, at least, the Guidelines can be used as specified in the ISO
  232.     standard which defines SGML.  There are some technical reasons which
  233.     mean that the TEI guidelines may not be definable as a "conforming
  234.     application" of SGML -- these mostly relate to syntactic freedoms of
  235.     SGML which are forbidden by the current version of the Guidelines.
  236.  
  237.    That's it for the basic goals of the TEI.  Coming up:  discussions of
  238. SGML basics, the TEI tags for core structural features, other core tags
  239. in the TEI scheme, and character-set issues.  After that, we should be
  240. able to raise some of the more advanced questions.
  241.  
  242. -Michael Sperberg-McQueen
  243.  ACH / ACL / ALLC Text Encoding Initiative
  244.  University of Illinois at Chicago
  245.  
  246.  
  247.